至强秘笈|OpenVINO™工具套件，面向AI任务的“神奇改造车间”

作者：飞龙在天2602911735 | 来源：互联网 | 2023-09-02 09:21

OpenVINO™工具套件■OpenVINO™工具套件能够加速深度学习推理，支持异构部署，具备模型量化功能并预置多种优化过的AI框架。■它帮助爱奇艺

OpenVINO™工具套件

■ OpenVINO™ 工具套件能够加速深度学习推理&＃xff0c;支持异构部署&＃xff0c;具备模型量化功能并预置多种优化过的AI框架。

■ 它帮助爱奇艺提升实时弹幕显示推理速度达5倍&＃xff0c;提升文本检测推理性能达11倍。

■ 它帮助西门子MRI的AI分析效能提升达原来的5.5倍。

■ 它帮助首云将AI业务并发接入能力提升了2.4倍。

经历了之前几期对至强平台的揭秘&＃xff0c;我们想必都已了解&＃xff1a;英特尔® 至强® 平台对于AI应用的加速&＃xff0c;从来都不是依靠某个单一的产品或技术特性来实现的。我们看到英特尔® AVX-512和英特尔® 深度学习加速&＃xff08;DL Boost&＃xff09;技术的导入&＃xff0c;让至强平台有了能够加速AI任务&＃xff0c;尤其是基于INT8和BF16这两种数据格式的AI任务所需的“VIP专用车道”&＃xff1b;我们还看到面向英特尔® 架构优化的多种主流AI框架的出现&＃xff0c;让AI应用更好地感知并充分利用“专用车道”的加速效果&＃xff1b;还有Analytics Zoo&＃xff0c;是打通大数据平台与AI应用平台的高速车道&＃xff0c;是平衡AI铁三角——算力、算法和数据发展步骤的关键……所有这些与AI加速相关的产品特性和功能在组合后&＃xff0c;才是至强平台加速AI应用的底蕴所在。

今天这期揭秘&＃xff0c;我们的焦点将汇聚在OpenVINO™ 这款软件工具套件身上&＃xff0c;它在英特尔® 架构平台上专攻AI应用加速的产品技术组合中也占据着举足轻重的地位。谈到它的主要功能&＃xff0c;那就是“变形”或者“改造”&＃xff0c;而这种变形或改造的对象&＃xff0c;正是AI应用涉及的数据。

众所周知&＃xff0c;AI应用原生的数据格式并不统一&＃xff0c;不过大多数AI模型多采用传统的FP32数据格式&＃xff0c;其实这种格式完全可以在损失很小精度的前提下&＃xff0c;转换成BF16或INT8格式&＃xff0c;以换取更高的处理效率或者说吞吐量&＃xff0c;这正是英特尔为至强平台上导入和更新深度学习加速技术&＃xff0c;或者说在CPU上实现INT8和BF16数据处理加速的源起&＃xff0c;不过&＃xff0c;要想真正用好这些加速特性&＃xff0c;大家要么得人为地对AI模型实施数据格式转换&＃xff0c;要么就得用更为专业和省心的工具来帮忙。

人为转换显然费时费力&＃xff0c;不仅无法根据处理器平台特性实施优化&＃xff0c;且转换后的模型也无法兼容不同的硬件平台。这就如同专为小型车优化的车道上&＃xff0c;却不断驶来传统的大型车辆。驾车的司机要么只能选择维持原速度&＃xff0c;甚至得降速前进&＃xff0c;要么就必须在上路前自己动手将大车改成适合车道的尺寸&＃xff0c;不论采用这两种方法中的哪一种&＃xff0c;显然都无法便捷和充分地利用到至强® 平台提供的加速支持。

由英特尔推出的OpenVINO™ 工具套件&＃xff0c;则是专业和省心工具的代表&＃xff0c;它提供的模型量化功能&＃xff0c;为上述问题提供了应对良方。它能让基于不同AI框架&＃xff0c;如TensorFlow、MXNet、PyTorch等构建的FP32数据格式AI模型&＃xff0c;在损失很少精度的情况下转化为INT8和BF16数据格式。

图一 OpenVINO™ 工具套件提供的模型量化功能

如图一所示&＃xff0c;OpenVINO™ 工具套件就像是一个神奇的“自动化改造车间”&＃xff0c;当基于FP32数据格式的AI模型来到这里时&＃xff0c;都要自动化改造为可利用英特尔® AVX-512和英特尔® 深度学习加速技术提速的INT8和BF16数据格式。这就好比赛车在上场前都会针对赛道特点进行全面的优化改装&＃xff0c;在甩掉了所有干扰速度、又不会影响行车安全的累赘后&＃xff0c;就只剩勇往直前&＃xff0c;疾速狂飙了&＃xff01;

除模型量化功能外&＃xff0c;针对一系列AI应用场景&＃xff0c;如视觉模拟、自动语音识别、自然语言处理及推荐系统等&＃xff0c;OpenVINO™ 工具套件还提供了能提升它们开发和部署效率的组件&＃xff0c;例如OpenVINO™ Model Server和OpenVINO™ Model Zoo等组件可对基于TensorFlow、PyTorch、MxNet、Keras等不同框架构建的训练模型实施更为高效的优化&＃xff0c;并简化这些模型部署的流程及耗时。更值得期待的是&＃xff0c;OpenVINO™ 工具套件还有基于通用API为用户智能选择AI加速硬件的功能&＃xff0c;让用户的AI应用在一次编写之后&＃xff0c;就可以更智能、也更有针对性地选择英特尔的CPU、VPU、GPU、FPGA、ASIC等芯片&＃xff0c;来实现异构的部署及更优的加速能力。

目前&＃xff0c;已经有很多行业和领域的企业用户开始利用OpenVINO™ 工具套件所提供的种种优势功能来为AI应用提供加速支持。例如在在线视频服务领域&＃xff0c;OpenVINO™ 工具套件与英特尔® 至强® 可扩展处理器相结合&＃xff0c;已帮助爱奇艺 Jarvis 深度学习云平台有效提升了 AI应用的推理效率&＃xff0c;如图二所示&＃xff0c;在典型的图像抠图应用场景中&＃xff0c;OpenVINO™ 工具套件带来了5倍的推理速度提升&＃xff0c;而在不良内容检测和文本检测场景中&＃xff0c;效率提升更是达到了6倍和11倍之多[1]。

图二 OpenVINO™ 工具套件在爱奇艺AI应用场景中带来的性能提升

在医疗行业的应用中&＃xff0c;西门子医疗团队选用了第二代英特尔® 至强® 可扩展处理器与OpenVINO™ 工具套件&＃xff0c;以保证在极小准确率损失的情况下来加速心脏MRI的AI推理速度。如图三所示&＃xff0c;在使用AI进行心脏图像分割的过程中&＃xff0c;右上是未使用INT8模型的传统ONNX输出图像&＃xff0c;而右下是使用INT8模型的输出图像&＃xff0c;可以直观地看到&＃xff0c;两者的输出成像质量几乎保持一致。同时&＃xff0c;从推理速度来看&＃xff0c;结合第二代英特尔® 至强® 可扩展处理器、英特尔® 深度学习加速技术以及OpenVINO™ 工具套件可使得心脏MRI的AI分析效能得以大幅增强——优化后的方案在量化和执行模型时&＃xff0c;其性能可提升至未优化方案的5.5倍[2]。

图三使用INT8模型前后的输出成像结果对比

OpenVINO™ Model Server组件对AI应用优化和部署的加速功效&＃xff0c;也有实战用例予以佐证&＃xff1a;首都在线旗下的云服务品牌——CDS首云就导入这一功能&＃xff0c;并借助它对英特尔® 架构基础设施的专门优化、与既有云平台K8S的良好集成以及对多种主流深度学习框架的出色支持&＃xff0c;大大简化了其AIaaS&＃xff08;AI云服务&＃xff09;方案的部署流程并提升了其生产效能。如图四所示&＃xff0c;在其常见的实时视频非法内容检测场景对比测试中&＃xff0c;使用OpenVINO™ Model Server组件的方案在支持的用户并发数量上远胜于对比组&＃xff0c;相比采用Tensorflow Serving的方案提升了2.4倍[3]。

图四 CDS首云针对不良视频内容检测场景的验证测试结果

[1]如欲了解爱奇艺案例的更多技术细节&＃xff0c;请访问&＃xff1a;

https://www.intel.cn/content/www/cn/zh/analytics/artificial-intelligence/optimize-the-efficiency-of-dl-inference-and-create-smarter-video-services.html&＃xff1b;

[2] 如欲了解西门子案例的更多技术细节&＃xff0c;请访问&＃xff1a;

https://www.intel.cn/content/www/cn/zh/service-providers/siemens-healthineers-accelerates-ai-for-cardiology.html&＃xff1b;

[3] 测试配置&＃xff1a;

测试组&＃xff1a;处理器&＃xff1a;单路英特尔® 至强® 金牌 6240Y 处理器&＃xff0c;18核心/36线程&＃xff0c;超线程开启&＃xff0c;睿频关闭&＃xff1b;内存&＃xff1a;6 * 16GB 2666MHz DDR4&＃xff1b;存储&＃xff1a;2*英特尔S4510 SSD 480GB&＃xff1b;BIOS&＃xff1a;2.48&＃xff1b;操作系统&＃xff1a;CentOS Linux Release 7.8.2003(Core)&＃xff1b;Kernel版本&＃xff1a;3.10.0-1127.19.1.el7.x86_64&＃xff1b;OpenVINO Model Server版本&＃xff1a;21.1&＃xff1b;对比组&＃xff1a;处理器&＃xff1a;单路英特尔® 至强® 金牌 6240Y 处理器&＃xff0c;18核心/36线程&＃xff0c;超线程开启&＃xff0c;睿频关闭&＃xff1b;内存&＃xff1a;6 * 16GB 2666MHz DDR4&＃xff1b;存储&＃xff1a;2*英特尔S4510 SSD 480GB&＃xff1b;BIOS&＃xff1a;2.48&＃xff1b;操作系统&＃xff1a;CentOS Linux Release 7.8.2003(Core)&＃xff1b;Kernel版本&＃xff1a;3.10.0-1127.19.1.el7.x86_64&＃xff1b;Tensorflow Serving版本&＃xff1a;2.3.0。

推荐阅读

python
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
format
表面缺陷检测数据集综述及GitHub开源项目推荐

本文综述了表面缺陷检测领域的数据集，并推荐了多个GitHub上的开源项目。通过对现有文献和数据集的系统整理，为研究人员提供了全面的资源参考，有助于推动该领域的发展和技术进步。 ... [详细]

蜡笔小新 2024-10-29 08:22:46
ip
Go Echo 框架入门指南【1】

本文介绍了 Go 语言中的高性能、可扩展、轻量级 Web 框架 Echo。Echo 框架简单易用，仅需几行代码即可启动一个高性能 HTTP 服务。 ... [详细]

蜡笔小新 2024-11-14 18:30:58
match
Java 15 发布，带来多项重要更新！

2020年9月15日，Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性，包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]

蜡笔小新 2024-11-14 12:11:09
php
包含phppdoerrorcode的词条

包含phppdoerrorcode的词条 ... [详细]

蜡笔小新 2024-11-14 12:06:14
format
高端存储技术演进与趋势

本文探讨了高端存储技术的发展趋势，包括松耦合架构、虚拟化、高性能、高安全性和智能化等方面。同时，分析了全闪存阵列和中端存储集群对高端存储市场的冲击，以及高端存储在不同应用场景中的发展趋势。 ... [详细]

蜡笔小新 2024-11-14 11:58:22
ip
基于iSCSI的SQL Server 2012群集测试(一)SQL群集安装

一、测试需求介绍与准备公司计划服务器迁移过程计划同时上线SQLServer2012，引入SQLServer2012群集提高高可用性，需要对SQLServ ... [详细]

蜡笔小新 2024-11-13 15:49:49
ip
应用链时代，详解 Avalanche 与 Cosmos 的差异

应用链时代，详解 Avalanche 与 Cosmos 的差异 ... [详细]

蜡笔小新 2024-11-13 09:37:19
python
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
list
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
format
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
php
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
python
Python与R语言的功能对比及应用场景分析

Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性，但Python作为一种通用编程语言，适用于更广泛的领域，包括Web开发、自动化脚本和机器学习等。对于初学者而言，Python的学习曲线更为平缓，上手更加容易。此外，Python拥有庞大的社区支持和丰富的第三方库，使其在实际应用中更具灵活性和扩展性。 ... [详细]

蜡笔小新 2024-11-01 18:37:10
python
Python编程中的高级技巧与应用

在Python编程中，掌握高级技巧对于提升代码效率和可读性至关重要。本文重点探讨了生成器和迭代器的应用，这两种工具不仅能够优化内存使用，还能简化复杂数据处理流程。生成器通过按需生成数据，避免了大量数据加载对内存的占用，而迭代器则提供了一种优雅的方式来遍历集合对象。此外，文章还深入解析了这些高级特性的实际应用场景，帮助读者更好地理解和运用这些技术。 ... [详细]

蜡笔小新 2024-10-30 16:12:26
match
第七天深入学习DGL框架：官方文档指导下的数据集下载与预处理技巧

在第七天的深度学习课程中，我们将重点探讨DGL框架的高级应用，特别是在官方文档指导下进行数据集的下载与预处理。通过详细的步骤说明和实用技巧，帮助读者高效地构建和优化图神经网络的数据管道。此外，我们还将介绍如何利用DGL提供的模块化工具，实现数据的快速加载和预处理，以提升模型训练的效率和准确性。 ... [详细]

蜡笔小新 2024-10-27 21:10:17

飞龙在天2602911735

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章